Tổng quan Tổng_hợp_giọng_nói

Một máy tổng hợp giọng nói bao gồm hai phần: ngoại diệnhậu trường. Phần ngoại diện nhận đầu vào ở dạng văn bản rồi cho đầu rathể hiện biểu tượng ngôn ngữ của văn bản (tức là một cách mã hóa cách phát âm văn bản). Phần hậu trường nhận lấy thể hiện biểu tượng ngôn ngữ như đầu vào và cho ra giọng nói tổng hợp ở dạng sóng âm thanh.

Phần ngoại diện có hai nhiệm vụ chính. Trước tiên, nó nhận văn bản và chuyển đổi các ký tự như các chữ số hay cách viết tắt thành dạng viết đầy đủ. Quá trình này gọi là chuẩn hóa văn bản, hay tiền xử lý. Sau đó nó cho ra mã phát âm ứng với từng từ, rồi phân chia và đánh dấu văn bản thành từng đoạn văn, nhóm từ, mệnh đề, hay câu văn. Quá trình chuyển văn bản sang mã phát âm được gọi là văn bản-sang-âm vị. Kết hợp mã phát âm và thông tin đoạn văn tạo nên đầu ra cuối cùng thể hiện biểu tượng ngôn ngữ.

Phần hậu trường, nhận lấy thể hiện biểu tượng ngôn ngữ rồi chuyển nó thành âm thanh. Phần này thường được gọi là máy tổng hợp. Có nhiều kỹ thuật tổng hợp, được mô tả bên dưới.